pytorch 不同学习率设置方法
最近注意到在一些caffe模型中,偏置项的学习率通常设置为普通层的两倍。具体原因可以参考(https://datascience.stackexchange.com/questions/23549/w ...
最近注意到在一些caffe模型中,偏置项的学习率通常设置为普通层的两倍。具体原因可以参考(https://datascience.stackexchange.com/questions/23549/w ...